Data statements for natural language processing

Data Statements for Natural language processing: Toward Mitigating System Bias and Enabling Better Science

Abstract

NLP 연구 및 개발을 위한 ‘데이터 내역’을 제안. 이를 통해 NLP 분야와 관련된 편향 및 배제 문제를 개선할 수 있을 것으로 기대함:

기술이 널리 도입되면 사회에 광범위한 영향을 미치기 때문에 다양한 문제를 야기할 수 있음. 이 논문은 NLP에 집중.

특정 인구집단에 대해서는 잘 작동하지 않는 문제. 예: 아동 또는 특정 사투리를 쓰는 집단.
사회에 존재하는 편향을 강화하는 문제. 예: IT 분야에 이미 남성이 많기 때문에, 이력서 평가 시스템이 IT 분야 여성 지원자의 역량을 과소추정.

과학적 문제와 윤리적 문제가 모두 존재:

이러한 문제를 개선하기 위해 연구자/개발자들이 자신의 연구결과 또는 제품에 대한 “데이터 내역”을 만들기를 제안함.

데이터 내역이란?

(각종 용어 정의. 생략)

최근 여러 연구에 따르면 학습 데이터셋의 제약으로 인해 NLP 시스템에 여러 윤리적 문제가 발생하고 있음. 예: 벡터 임베딩을 하는 경우 젠더에 대한 문화적 편견이 그대로 반영됨.

학습 데이터의 모든 편향을 제거하는 것을 불가능. 따라서 데이터의 특성을 설명하는 부가적인 정보가 필요함.

Open Language Archives Community, Text Encoding Initiative 등 몇몇 단체에서 언어 데이터를 모으고 메타데이터를 정리하고 있으나 구체적인 정보는 부족.

따라서 모든 NLP 관련 연구, NLP를 활용하는 모든 시스템이 데이터 내역을 함께 제공할 것을 제안.

데이터 내역의 형식을 제안.

긴 형식:

짧은 형식:

“트위터 혐오 발언 데이터셋” 등에 대한 데이터 내역 예시 (생략)

의학 분야:

Gebru et al. (2018)이 Datasheets for datasets를 제안 (Timnit Gebru는 구글에서 AI 윤리 연구를 하다가 Jeff Dean에 의해 해고됨)

Algorithmic Impact Statements:

Ben Shneiderman 2016, AI Now Institute 2018 등이 “환경 영향 평가서environmental impact statements”와 유사하게 “알고리즘 영향 평가서algorithmic impact statements”가 필요하다고 주장.

데이터 내역을 효율적으로 작성하기 위한 방법들 (생략)

NLP 기술에서의 배제와 편향 문제를 개선하기 위해, NLP 시스템과 관련된 모든 출판물과 문서에 데이터 내역을 담을 것을 제안.

단기적 영향: 데이터가 세상의(그리고 이 시스템에 영향받는 사람들의) 어떤 측면을 대표할 수 있고 대표할 수 없는지 드러내게 됨

장기적 영향: 배제와 편향 문제를 직접적으로 다루는 연구를 촉진하여 더 재표성있는 데이터셋 개발을 장려할 것.

분야별 영향: